3 research outputs found

    Un moteur de traitement de requĂȘtes SPARQL distribuĂ©es optimisĂ©e pour les partitions de donnĂ©es verticales et horizontales

    Get PDF
    National audienceAn increasing number of linked knowledge bases are openly accessible over the Internet. Distributed Query Processing (DQP) techniques enable querying multiple knowledge bases coherently. However, the precise DQP semantics is often overlooked, and query performance issues arise. In this paper, we propose a DQP engine for distributed RDF graphs, adopting a SPARQL-compliant DQP semantics. We improve performance through heuristics that generate Basic Graph Pattern-based sub-queries designed to maximise the parts of the query processed by the remote endpoints. We evaluate our DQP engine considering a query set representative of most common SPARQL clauses and different data distribution schemes. Results show a significant reduction of the number of remote queries executed and the query execution time while preserving completeness.Un nombre grandissant de bases de connaissances liĂ©es sont exposĂ©esexposĂ©esĂ  travers l'Internet. Le traitement de requĂȘtes distribuĂ©es (DQP) permet d'interroger des bases de connais-sances multiples simultanĂ©ment. Cependant, la sĂ©mantique DQP prĂ©cise est souvent nĂ©gligĂ©e, et desprobĂŹ emes de performance doiventĂȘtredoiventĂȘtre traitĂ©s. Dans ce papier, nous proposons un moteur DQP pour l'interrogation de graphs RDF distribuĂ©s, conformĂš a la sĂ©-mantique de SPARQL. Nous en amĂ©liorons la performance grĂącĂš a des heuristiques qui gĂ©nĂšrent des sous-requĂȘtesrequĂȘtes`requĂȘtesĂ  par-tir de schĂ©mas de graphes basiques (BGPs) demanĂŹ erĂš a maximiser la partie de la requĂȘte traitĂ©e par les serveurs de donnĂ©es distants. NousĂ©valuonsNousĂ©valuons notre moteur DQPĂ DQP`DQPĂ  travers un ensemble de reqĂȘtes reprĂ©sentatives de clauses SPARQL les plus rĂ©pen-dues et des schĂ©mas de distribution des donnĂ©es divers. Les rĂ©sultats montrent un rĂ©duction significative du nombre de requĂȘtes exĂ©cutĂ©es et du temps de traitement sans altĂ©ration de la complĂ©tude des rĂ©sultats

    Traitement de requĂȘtes SPARQL sur des donnĂ©es liĂ©es

    Get PDF
    Driven by the Semantic Web standards, an increasing number of RDF data sources are published and connected over the Web by data providers, leading to a large distributed linked data network. However, exploiting the wealth of these data sources is very challenging for data consumers considering the data distribution, their volume growth and data sources autonomy. In the Linked Data context, federation engines allow querying these distributed data sources by relying on Distributed Query Processing (DQP) techniques. Nevertheless, a naive implementation of the DQP approach may generate a tremendous number of remote requests towards data sources and numerous intermediate results, thus leading to costly network communications. Furthermore, the distributed query semantics is often overlooked. Query expressiveness, data partitioning, and data replication are other challenges to be taken into account. To address these challenges, we first proposed in this thesis a SPARQL and RDF compliant Distributed Query Processing semantics which preserves the SPARQL language expressiveness. Afterwards, we presented several strategies for a federated query engine that transparently addresses distributed data sources, while managing data partitioning, query results completeness, data replication, and query processing performance. We implemented and evaluated our approach and optimization strategies in a federated query engine to prove their effectiveness.De plus en plus de sources de donnĂ©es liĂ©es sont publiĂ©es Ă  travers le Web en s'appuyant sur les technologies du Web sĂ©mantique, formant ainsi un large rĂ©seau de donnĂ©es distribuĂ©es. Cependant il est difficile pour les consommateurs de donnĂ©es de profiter de la richesse de ces donnĂ©es, compte tenu de leur distribution, de l'augmentation de leur volume et de l'autonomie des sources de donnĂ©es. Les moteurs fĂ©dĂ©rateurs de donnĂ©es permettent d'interroger ces sources de donnĂ©es en utilisant des techniques de traitement de requĂȘtes distribuĂ©es. Cependant, une mise en Ɠuvre naĂŻve de ces techniques peut gĂ©nĂ©rer un nombre considĂ©rable de requĂȘtes distantes et de nombreux rĂ©sultats intermĂ©diaires entraĂźnant ainsi un long temps de traitement des requĂȘtes et des communications rĂ©seau coĂ»teuse. Par ailleurs, la sĂ©mantique des requĂȘtes distribuĂ©es est souvent ignorĂ©e. L'expressivitĂ© des requĂȘtes, le partitionnement des donnĂ©es et leur rĂ©plication sont d'autres dĂ©fis auxquels doivent faire face les moteurs de requĂȘtes. Pour rĂ©pondre Ă  ces dĂ©fis, nous avons d'abord proposĂ© une sĂ©mantique des requĂȘtes distribuĂ©es compatible avec les standards SPARQL et RDF qui prĂ©serve l’expressivitĂ© de SPARQL. Nous avons ensuite prĂ©sentĂ© plusieurs stratĂ©gies d'optimisation pour un moteur de requĂȘtes fĂ©dĂ©rĂ©es qui interroge de maniĂšre transparente des sources de donnĂ©es distribuĂ©es. La performance de ces optimisations est Ă©valuĂ©e sur une implĂ©mentation d’un moteur de requĂȘtes distribuĂ©es SPARQ

    SPARQL distributed query processing over linked data

    No full text
    De plus en plus de sources de donnĂ©es liĂ©es sont publiĂ©es Ă  travers le Web en s'appuyant sur les technologies du Web sĂ©mantique, formant ainsi un large rĂ©seau de donnĂ©es distribuĂ©es. Cependant il est difficile pour les consommateurs de donnĂ©es de profiter de la richesse de ces donnĂ©es, compte tenu de leur distribution, de l'augmentation de leur volume et de l'autonomie des sources de donnĂ©es. Les moteurs fĂ©dĂ©rateurs de donnĂ©es permettent d'interroger ces sources de donnĂ©es en utilisant des techniques de traitement de requĂȘtes distribuĂ©es. Cependant, une mise en Ɠuvre naĂŻve de ces techniques peut gĂ©nĂ©rer un nombre considĂ©rable de requĂȘtes distantes et de nombreux rĂ©sultats intermĂ©diaires entraĂźnant ainsi un long temps de traitement des requĂȘtes et des communications rĂ©seau coĂ»teuse. Par ailleurs, la sĂ©mantique des requĂȘtes distribuĂ©es est souvent ignorĂ©e. L'expressivitĂ© des requĂȘtes, le partitionnement des donnĂ©es et leur rĂ©plication sont d'autres dĂ©fis auxquels doivent faire face les moteurs de requĂȘtes. Pour rĂ©pondre Ă  ces dĂ©fis, nous avons d'abord proposĂ© une sĂ©mantique des requĂȘtes distribuĂ©es compatible avec les standards SPARQL et RDF qui prĂ©serve l’expressivitĂ© de SPARQL. Nous avons ensuite prĂ©sentĂ© plusieurs stratĂ©gies d'optimisation pour un moteur de requĂȘtes fĂ©dĂ©rĂ©es qui interroge de maniĂšre transparente des sources de donnĂ©es distribuĂ©es. La performance de ces optimisations est Ă©valuĂ©e sur une implĂ©mentation d’un moteur de requĂȘtes distribuĂ©es SPARQLDriven by the Semantic Web standards, an increasing number of RDF data sources are published and connected over the Web by data providers, leading to a large distributed linked data network. However, exploiting the wealth of these data sources is very challenging for data consumers considering the data distribution, their volume growth and data sources autonomy. In the Linked Data context, federation engines allow querying these distributed data sources by relying on Distributed Query Processing (DQP) techniques. Nevertheless, a naive implementation of the DQP approach may generate a tremendous number of remote requests towards data sources and numerous intermediate results, thus leading to costly network communications. Furthermore, the distributed query semantics is often overlooked. Query expressiveness, data partitioning, and data replication are other challenges to be taken into account. To address these challenges, we first proposed in this thesis a SPARQL and RDF compliant Distributed Query Processing semantics which preserves the SPARQL language expressiveness. Afterwards, we presented several strategies for a federated query engine that transparently addresses distributed data sources, while managing data partitioning, query results completeness, data replication, and query processing performance. We implemented and evaluated our approach and optimization strategies in a federated query engine to prove their effectiveness
    corecore